Video dubbing aims to translate the original speech in a film or television program into the speech in a target language, which can be achieved with a cascaded system consisting of speech recognition, machine translation and speech synthesis. To ensure the translated speech to be well aligned with the corresponding video, the length/duration of the translated speech should be as close as possible to that of the original speech, which requires strict length control. Previous works usually control the number of words or characters generated by the machine translation model to be similar to the source sentence, without considering the isochronicity of speech as the speech duration of words/characters in different languages varies. In this paper, we propose a machine translation system tailored for the task of video dubbing, which directly considers the speech duration of each token in translation, to match the length of source and target speech. Specifically, we control the speech length of generated sentence by guiding the prediction of each word with the duration information, including the speech duration of itself as well as how much duration is left for the remaining words. We design experiments on four language directions (German -> English, Spanish -> English, Chinese <-> English), and the results show that the proposed method achieves better length control ability on the generated speech than baseline methods. To make up the lack of real-world datasets, we also construct a real-world test set collected from films to provide comprehensive evaluations on the video dubbing task.
translated by 谷歌翻译
在多模式的多代理轨迹预测中,尚未完全解决两个主要挑战:1)如何测量相互作用模块引起的不确定性,从而导致多个试剂的预测轨迹之间引起相关性; 2)如何对多个预测进行排名并选择最佳预测轨迹。为了应对这些挑战,这项工作首先提出了一个新颖的概念,协作不确定性(CU),该概念模拟了互动模块引起的不确定性。然后,我们使用原始置换量等不确定性估计器来构建一般的CU感知回归框架,以完成回归和不确定性估计任务。此外,我们将提出的框架应用于当前的SOTA多代理多模式预测系统作为插件模块,该模块使SOTA系统能够达到1)估计多代理多模式轨迹预测任务的不确定性; 2)对多个预测进行排名,并根据估计的不确定性选择最佳预测。我们对合成数据集和两个公共大规模多代理轨迹预测基准进行了广泛的实验。实验表明:1)在合成数据集上,Cu-Aware回归框架允许模型适当地近似地面真相拉普拉斯分布; 2)在多代理轨迹预测基准上,Cu-Aware回归框架稳步帮助SOTA系统改善了其性能。特别是,提出的框架帮助Vectornet在Nuscenes数据集中所选最佳预测的最终位移误差方面提高了262 cm; 3)对于多机构多模式轨迹预测系统,预测不确定性与未来随机性呈正相关; 4)估计的CU值与代理之间的交互式信息高度相关。
translated by 谷歌翻译
在本文中,我们研究了可以从原始图像中学习低级技能的曲目的问题,这些曲目可以测序以完成长效的视觉运动任务。强化学习(RL)是一种自主获取短疗法技能的有前途的方法。但是,RL算法的重点很大程度上是这些个人技能的成功,而不是学习和扎根大量的技能曲目,这些技能可以对这些技能进行测序,这些技能可以对完成扩展的多阶段任务进行测序。后者需要稳健性和持久性,因为技能的错误会随着时间的流逝而复杂,并且可能要求机器人在其曲目中具有许多原始技能,而不仅仅是一个。为此,我们介绍了Ember,Ember是一种基于模型的RL方法,用于学习原始技能,适合完成长途视觉运动任务。 Ember使用学识渊博的模型,评论家和成功分类器学习和计划,成功分类器既可以作为RL的奖励功能,又是一种基础机制,可连续检测机器人在失败或扰动下是否应重试技能。此外,学到的模型是任务不合时宜的,并使用来自所有技能的数据进行了培训,从而使机器人能够有效地学习许多不同的原语。这些视觉运动原始技能及其相关的前后条件可以直接与现成的符号计划者结合在一起,以完成长途任务。在Franka Emika机器人部门上,我们发现Ember使机器人能够以85%的成功率完成三个长马视觉运动任务,例如组织办公桌,文件柜和抽屉,需要排序多达12个技能,这些技能最多需要12个技能,涉及14个独特的学识渊博,并要求对新物体进行概括。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
由于复杂的骨骼年龄评估过程,在临床实践中,骨骼年龄评估具有挑战性。当前的自动骨龄年龄评估方法设计了很少考虑诊断物流,因此可能会产生某些无法解释的隐藏状态和输出。因此,医生很难与此类模型合作,因为很难检查模型预测的正确性。在这项工作中,我们提出了一个新的基于图的深度学习框架,用于使用手动X光片,称为Mimitator(DI)。 DI的结构旨在使用评分方法(例如Tanner-Whitehouse方法)来学习医生的诊断后勤,以进行骨骼年龄评估。具体而言,DI的卷积捕获了X光片上感兴趣的解剖区域(ROI)的局部特征,并通过我们提出的基于解剖学的组卷积预测了ROI评分,总结了骨骼年龄预测。此外,我们开发了一个新型的基于双图的注意模块,以计算ROI特征的患者特定注意力和ROI分数的上下文注意力。据我们所知,DI是遵循评分方法的第一个自动骨骼年龄评估框架,而没有完全监督的手部X光片。只有骨骼年龄监督的手动X光片上的实验证明DI可以通过稀疏参数实现出色的性能并提供更多的可解释性。
translated by 谷歌翻译
Prompt Tuning, conditioning on task-specific learned prompt vectors, has emerged as a data-efficient and parameter-efficient method for adapting large pretrained vision-language models to multiple downstream tasks. However, existing approaches usually consider learning prompt vectors for each task independently from scratch, thereby failing to exploit the rich shareable knowledge across different vision-language tasks. In this paper, we propose multitask vision-language prompt tuning (MVLPT), which incorporates cross-task knowledge into prompt tuning for vision-language models. Specifically, (i) we demonstrate the effectiveness of learning a single transferable prompt from multiple source tasks to initialize the prompt for each target task; (ii) we show many target tasks can benefit each other from sharing prompt vectors and thus can be jointly learned via multitask prompt tuning. We benchmark the proposed MVLPT using three representative prompt tuning methods, namely text prompt tuning, visual prompt tuning, and the unified vision-language prompt tuning. Results in 20 vision tasks demonstrate that the proposed approach outperforms all single-task baseline prompt tuning methods, setting the new state-of-the-art on the few-shot ELEVATER benchmarks and cross-task generalization benchmarks. To understand where the cross-task knowledge is most effective, we also conduct a large-scale study on task transferability with 20 vision tasks in 400 combinations for each prompt tuning method. It shows that the most performant MVLPT for each prompt tuning method prefers different task combinations and many tasks can benefit each other, depending on their visual similarity and label similarity. Code is available at https://github.com/sIncerass/MVLPT.
translated by 谷歌翻译
这项工作引入了离题,这是一种用于生成具有分类节点和边缘属性图的图形的离散denoising扩散模型。我们的模型定义了一个扩散过程,该过程逐步编辑了具有噪声(添加或删除边缘,更改类别)的图形以及学会恢复此过程的图形变压器网络。有了这两种成分,我们将分布学习将上的分布学习减少到一个简单的分类任务序列。我们通过提出一个新的马尔可夫噪声模型来进一步提高样品质量,该模型在扩散过程中保留节点和边缘类型的边际分布,并通过在每个扩散步骤中添加从嘈杂图中得出的辅助图理论特征。最后,我们提出了一个指导程序,以根据图形级特征调理生成。总体而言,离题可以在分子和非分子数据集上达到最新性能,在平面图数据集上,有效性提高了3倍。特别是,这是第一个模型,将鳞片缩放到包含130万个药物样分子的大型鳄梨调子数据集,而无需使用分子特异性表示,例如微笑或片段。
translated by 谷歌翻译
提示方法被认为是几次自然语言处理的关键进展之一。最近对基于离散令牌的``硬提示''转移到连续``软提示''的最新研究,这些提示将可学习的向量用作伪提示代币并实现更好的性能。尽管显示出有希望的前景,但观察到这些软宣传的方法在很大程度上依赖良好的初始化来生效。不幸的是,获得软提示的完美初始化需要了解内在语言模型的工作和精心设计,这绝非易事,必须从头开始重新启动每个新任务。为了解决此问题,我们提出了一种称为Metaprompting的广义软提示方法,该方法采用了良好认可的模型 - 静态元学习算法,以自动找到更好的及时初始化,从而快速适应新的促进任务。问题并在四个不同的数据集上带来了显着改善(1次设置的准确性提高了6分),从而实现了新的最新性能。
translated by 谷歌翻译
Face Animation是计算机视觉中最热门的主题之一,在生成模型的帮助下取得了有希望的性能。但是,由于复杂的运动变形和复杂的面部细节建模,生成保留身份和光真实图像的身份仍然是一个关键的挑战。为了解决这些问题,我们提出了一个面部神经量渲染(FNEVR)网络,以充分探索在统一框架中2D运动翘曲和3D体积渲染的潜力。在FNEVR中,我们设计了一个3D面积渲染(FVR)模块,以增强图像渲染的面部细节。具体而言,我们首先使用精心设计的体系结构提取3D信息,然后引入一个正交自适应射线采样模块以进行有效的渲染。我们还设计了一个轻巧的姿势编辑器,使FNEVR能够以简单而有效的方式编辑面部姿势。广泛的实验表明,我们的FNEVR在广泛使用的说话头基准上获得了最佳的总体质量和性能。
translated by 谷歌翻译
变压器是一个变革性框架,可以对顺序数据进行建模,并在广泛的任务上取得了出色的性能,但具有高计算和能源成本。为了提高其效率,一个受欢迎的选择是通过二进制化压缩模型,将浮点值限制为二进制值,以节省资源消耗,这是由于廉价的钻头操作而大大减少了资源。但是,现有的二进制方法仅旨在最大程度地统计地减少输入分布的信息损失,同时忽略了注意机制核心的成对相似性建模。为此,我们提出了一种新的二进制范式,通过二维软式散发范式通过二维的散布量表(称为ecoformer)将原始查询和钥匙映射到锤子空间中的低维二进制代码中。学会了内核化的哈希函数,以以自我监督的方式从注意图中提取的基础真相相似性关系匹配。基于二进制代码的内部乘积与锤距距离以及矩阵乘法的关联性质之间的等效性,我们可以通过将其表示为二进制代码的点产量来近似线性复杂性中的注意力。此外,查询和钥匙的紧凑型二进制表示使我们能够用简单的积累来代替大多数昂贵的多重收益操作,以节省边缘设备上的片上能量足迹。关于视觉和语言任务的广泛实验表明,生态学家始终如一地达到与标准专注的可比性,同时消耗了更少的资源。例如,与标准注意相比,基于PVTV2-B0和Imagenet-1K,EcoFormer可实现73%的能量足迹降低,性能下降仅为0.33%。代码可从https://github.com/ziplab/ecoformer获得。
translated by 谷歌翻译